干货|差异代谢物如何定义?有哪些统计学分析方法?
在拿到代谢物定量表格后,首要任务是寻找组间显著差异的代谢物有哪些,如最常用的比较组间:实验组(treat)VS对照组(control)。此部分代谢物是你的实验处理导致显著差异的,是最有研究价值的部分数据。那么差异代谢物是如何定义的?差异阈值标准又有哪些?每个阈值标准又涉及到哪些统计学分析方法?
我们知道代谢组学分为非靶向代谢组学、靶向代谢组学、广泛靶向代谢组学三大类型,不同类型的代谢组学项目差异阈值标准也不同。
对于常规非靶向代谢组学,一般要求每组6个样本以上。临床样本由于样本异质性较大,一般要求每组10个样本以上。以寻找生物标志物(biomarker)为目的的临床或探究性实验,一般每组50个样本以上效果较好。以采用LASSO、弹性回归、岭回归等机器学习进行疾病分型或建立预后模型等的分析,一般单次项目每组100个样本以上,且最好送两批及以上样本分训练集和验证集,效果较好。样本数目越多,接受者操作特性曲线(ROC)分析或随机森林(Random Forest)、支持向量机(Support Vector Machine, SVM)、LASSO回归、弹性网络回归、岭回归等算法的分析效果越好,寻找的biomarker或疾病分型或预后模型越可信
1.1 非靶向代谢组
非靶向代谢组学的显著差异的阈值标准一般为FC≥2或者FC≤1/2、p<0.05、VIP≥1,同时满足此三项标准,被认为是显著差异代谢物。其中FC值即差异倍数(Fold Change),为A组平均值/B组平均值,如average(treat)/average(control), FC≥2说明代谢物在treat组高表达,FC≤1/2说明在treat组低表达。关于p值统计方法,代谢组数据在非参数检验和参数检验之间进行选择是一项挑战,联川通常选择参数测试依赖于代谢组数据类似于特定分布(通常是正态或“钟形”分布)的假设,例如技术复制中的变量。在代谢组学数据中,每种代谢物的分布在有限的样本中可能不同。此外,我们在分析中同时进行了参数测试(Student’s t-test)和非参数测试(秩和检验(rank sum test))值,感兴趣的客户可以根据rank sum test的p值筛选尝试。与蛋白组和其他组学不同,代谢组分析不仅要进行单变量统计(FC值、P值),还要进行多变量统计分析。代谢组一般采取PLS-DA或者OPLS-DA多变量统计分析方法。PLS-DA是一种有监督的差异判别分析方法,该方法运用偏最小二乘回归建立代谢物表达量和样品类别之间的关系模型,实现对样品的建模预测,OPLS-DA则是在PLS-DA分析基础上,进行了正交变换矫正(OSC),可以滤除与分类信息无关的噪音,提高了模型的解析能力和有效性,PLS-DA或OPLS-DA在实际分析中均普遍使用。代谢组会通过计算其多变量的差异贡献度(Variable Important for the Projection,VIP)来衡量各代谢物表达模式对各组样本分类判别的影响强度和解释能力,从而辅助代谢物的筛选,通常以VIP≥1.0作为筛选条件。
1.2 广靶代谢组
对于广靶代谢组学,有生物学重复的实验,一般以FC≥2或者FC≤1/2,VIP≥1,同时满足此两项标准,被认为是显著差异代谢物,同时可以结合单变量分析的 p-value来进一步筛选差异代谢物。无生物学重复,一般以FC≥2或者FC≤1/2为阈值来判定显著差异,但同样的,样本较少数据分析结果可能受个体差异影响程度较大,参考价值较低,一般不建议每组低于6个样本。
1.3 靶向代谢组
靶向代谢组学一般以FC≥2或者FC≤1/2、VIP≥1,同时满足此两项标准,被认为是显著差异代谢物,同时可以结合单变量分析的 p-value来进一步筛选出差异代谢物。无生物学重复,一般以FC≥2或者FC≤1/2为阈值来作为显著差异标准。
1.4 三种代谢组检测的区别
关于三种代谢组学项目的区别,由于靶向代谢组学定量结果精准,且可以进行绝对定量,所以代谢组分析一般用靶向代谢组学作为实验验证手段,且因为靶向代谢组学与非靶代谢组或者广靶代谢组学均是基于质谱的实验方法,差异验证的重复性要比做生物学验证更高。根据经验,在大多数情况下,先做非靶代谢组或者广靶代谢组学项目筛选出来感兴趣的差异代谢物,然后再进行筛选后代谢物的靶向代谢组学分析,来验证差异的真实存在。关于送样最好应该与原来非靶代谢组或者广靶代谢组学样本一致,验证效果最好,其次也可以用相同处理的其他批次样本。此外,如果已明确研究某一类代谢物,也可直接做该类物质的靶向代谢组学项目进行绝对定量,再筛选出其中显著差异的代谢物。
1.5 差异阈值的调整
关于代谢组差异分析的通用阈值,并非一成不变的。要实际问题实际分析,如在开展组学分析前就已通过实验验证一些感兴趣物质是真实差异,但组学分析可能没达到显著差异标准,这种情况在数据筛选时经常遇到,此时可以按照此些感兴趣物质的差异标准来调整阈值,如FC值降低至1.5倍等。需注意的是,阈值不是随便调整的,一定要有湿实验作为依托,否则很可能遭受审稿人质疑调整的合理性,而被拒稿。此外对于发表纯组学文章,不做任何湿实验验证,是不能降低阈值的。
此外,也有文献报道代谢组分析只采用p-value和VIP两个参数来作为显著差异代谢物的筛选阈值,如下图,见本节参考文献[6-8],感兴趣的客户可以查看此类文章以及相关期刊。
那么按照阈值标准筛选出来的代谢物,实际一定是显著差异的吗?没达到显著差异标准的代谢物一定不能研究吗?
这个问题不能一概而论,与上述问题类似,同样要根据实际情况进行判断。首先,组学分析根据阈值所筛选的显著差异代谢物是统计学意义上的差异,非生物学意义上的差异。真实情况是否差异,需要进行相关实验验证。同样的道理,如果关注的一些代谢物统计学上没达到显著差异,但经过实验验证生物学意义上是真实差异的,那么这个通用阈值标准是可以根据实际情况进行调整,不是一成不变的。之所以是通用阈值,即采取该阈值标准,如果后期不进行验证实验而直接发表纯组学文章,审稿人一般不会质疑差异的合理性。如果不验证直接发表纯组学文章,同时降低阈值标准,则可能会被审稿人质疑,需要补做湿实验验证,证明调整阈值的合理性。
此外也可以根据组内样本间的重复性情况入手,如果发现某个样本严重离群,可以考虑剔除偏离严重的样本来提高组间差异,这也是有些客户每组样本一般会多送几个的原因。
FC(A/B)=average(A)/average(B),可用excel自带功能计算。
1. Student’s t-test:
适用于有生物学重复、两组间比较,整体成正态分布的数据,在代谢组分析中应用很广。t-test要注意的单双尾区别,以及配对检验、等方差检验、异方差检验的区别。t-test具体可参考https://baike.baidu.com/item/t%E6%A3%80%E9%AA%8C/9910799?fr=aladdin,可用excel自带功能计算。
双尾检验是抽检的样本统计与假设参数是否在正方向或负方向过大,把检验风险分担到左右两侧,如显著性标准是5%,则概率曲线两侧各占2.5%,实际置信区间为95%。单尾检验则只注重验证单侧方向,或者偏高,或者就是偏低,如显著性标准是5%,则只关注概率曲线一侧5%,实际置信区间为90%。简单来说,单尾检验即已经实现知道两组变量的均值大小方向,不知道大小的程度如何;双尾检验即并不知道两组变量的均值大小也不知道大小程度,双尾统计更加严格。组学鉴定到的代谢物种类繁多,在两组间有高有低,一般使用双尾检测。
t检验分析前会进行F检验,来判断两组样本的方差齐性,如果两组数据的方差无显著性,即符合方差齐性,则选择等方差检验。如果两组数据的方差有显著性,则选择异方差检验,一般在不进行方差齐性判断时多使用异方差检验。至于配对检验的对象是同一个样本实验处理前后比较,需与常规t检验区分开。比如,有三位病人Control1、Control2、Control3,经治疗后命名为treat1、treat2、treat3,实际还是这3位病人,只是预前和预后的区别,应选择配对T检验,可以有效减小个体差异对实验的干扰。但如果,同时准备Control组和treat组各3个样本,分别进行处理,实际对象是6个不同的样本,则不能用配对T检验。
2.秩和检验(rank sum test)
秩和检验适用于不考虑样本的总体分布或者分布未知的对象,实用性很强,如16S rDNA分析,宏基因组分析多采用秩和检验计算p值。具体可参考https://baike.baidu.com/item/%E7%A7%A9%E5%92%8C%E6%A3%80%E9%AA%8C/6334564?fr=aladdin。
3. 卡方检验(Chi square)
适用于无生物学重复、两组间比较。具体可参考
https://baike.baidu.com/item/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C/2591853?fr=aladdin。
1.单因素方差分析(One-Way ANOVA)
One-Way ANOVA即F检验,适用于有生物学重复、多组间比较分析。在代谢组多组间比较分析中应用较广,可检验同一个影响因素不同程度下对结果的影响。如10%、20%、30%的药物浓度处理对小鼠肝纤维化的肝脏重量影响,即称取各组样本的小鼠肝重,进行One-Way ANOVA的3组比较分析。具体可参考
https://baike.baidu.com/item/%E5%8D%95%E5%90%91%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90/22684329?fr=aladdin。
2.卡方检验(Chi square n*n):
适用于无生物学重复、多组间比较。具体可参考
https://baike.baidu.com/item/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C/2591853?fr=aladdin。
费舍尔精确检验(Fisher exact-test)
Fisher exact-test也称超几何分布检验(hypergeometric test),常用于差异代谢物富集到通路的富集显著性分析,得到各通路的p value。具体公式如图,其中S即注释到该通路的差异代谢物数目,TS即注释到所有通路的总差异代谢物数目,B即该通路的代谢物总数目,TB即所有通路的代谢物总数目。
图1:超几何检验的p值计算
PLS-DA或OPLS-DA分析的VIP值是代谢组分析的多变量统计值,一般通过R包ropls进行分析,具体R代码可参考官方vignette,感兴趣的老师可以尝试进行。
https://www.bioconductor.org/packages/release/bioc/html/ropls.html
图2:ropls包
参考文献
1: Cao M, Li C, Liu Y, Cai K, Chen L, Yuan C, Zhao Z, Zhang B, Hou R, Zhou X. Assessing Urinary Metabolomics in Giant Pandas Using Chromatography/Mass Spectrometry: Pregnancy-Related Changes in the Metabolome. Front Endocrinol (Lausanne). 2020 Apr 16;11:215. doi: 10.3389/fendo.2020.00215. PMID: 32373070; PMCID: PMC7176934.
2: Zhang S, Sun F, Zhang C, Zhang M, Wang W, Zhang C, Xi Y. Anthocyanin Biosynthesis and a Regulatory Network of Different-Colored Wheat Grains Revealed by Multiomics Analysis. J Agric Food Chem. 2022 Jan 26;70(3):887-900. doi: 10.1021/acs.jafc.1c05029. Epub 2022 Jan 14. PMID: 35029408.
3: Yu C, Luo X, Zhang C, Xu X, Huang J, Chen Y, Feng S, Zhan X, Zhang L, Yuan H, Zheng B, Wang H, Shen C. Tissue-specific study across the stem of Taxus media identifies a phloem-specific TmMYB3 involved in the transcriptional regulation of paclitaxel biosynthesis. Plant J. 2020 Jul;103(1):95-110. doi: 10.1111/tpj.14710. Epub 2020 Feb 21. PMID: 31999384.
5: Tang H, Li P, Chen L, Ma JK, Guo HH, Huang XC, Zhong RM, Jing SQ, Jiang LW. The formation mechanisms of key flavor substances in stinky tofu brine based on metabolism of aromatic amino acids. Food Chem. 2022 Oct 30;392:133253. doi: 10.1016/j.foodchem.2022.133253. Epub 2022 May 20. PMID: 35649310.
6: Yang J, Feng T, Li S, Zhang X, Qian Y. Human follicular fluid shows diverse metabolic profiles at different follicle developmental stages. Reprod Biol Endocrinol. 2020 Jul 23;18(1):74. doi: 10.1186/s12958-020-00631-x. PMID: 32703275; PMCID: PMC7376676.
7: Lai JL, Liu ZW, Luo XG. A metabolomic, transcriptomic profiling, and mineral nutrient metabolism study of the phytotoxicity mechanism of uranium. J Hazard Mater. 2020 Mar 15;386:121437. doi: 10.1016/j.jhazmat.2019.121437. Epub 2019 Oct 13. PMID: 31899027.
8: Zhang Y, Lai JL, Ji XH, Luo XG. Unraveling response mechanism of photosynthetic metabolism and respiratory metabolism to uranium-exposure in Vicia faba. J Hazard Mater. 2020 Nov 5;398:122997. doi: 10.1016/j.jhazmat.2020.122997. Epub 2020 May 24. PMID: 32512460.
相关阅读
所见即所得,绘图高规格联川云平台,让科研更自由